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摘 E: 本 文 用 4 种 机 器 学 习 方 法 : 支持 向 量 机 (SVM)、 随 机 森林 (RF)、 集 成 学 习 (EM) 
和 多 层 感 知 机 (MLP)， 将 SBZCAT 中 227 个 BZUs 分 为 BL Lacs 候 选 体 和 FSRQs 候 选 体 ， 并 通过 
特征 工程 和 网 格 搜索 方法 提高 分 类 准确 率 。 综 合 4 种 分 类 器 的 分 类 结果 ， 本 文中 ， 将 判别 概 
率 阅 值 设 为 0.8， 得 到 33 个 BL Lacs 候 选 体 和 119 个 FSRQs 候 选 体 。 
关键 词 : MRA, 蝎 虎 天 体 ; 平 谱 射电 类 星体 ; 机 器 学 习 ; 分 类 
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粮 变 体 (blazan) 是 活动 星系 核 (AGNSs) 的 一 个 特殊 子 类 。 由 于 其 相对 论 喷 流 与 观测 者 视线 
夹 角 较 小 ， 它 们 表现 出 极端 的 观测 性 质 : 快速 且 大 幅度 的 光 变 ， 高 光度 ， 高 偏振 ， 视 超 光 速 
运动 ， 强 烈 的 高 能 y-ray 辐射 等 。 根 据 光 学 发 射线 强 弱 ， 炮 变 体 通 常 分 为 蝎 虎 天 体 (BL Lacs) 
和 平 谱 射 电 类 星体 (FSRQs)，BL Lacs 只 有 很 弱 的 发 射线 ， 甚 至 没有 发 射线 ， 而 FSRQs 有 强 发 
射线 0 为。 癣 变 体 的 能 谱 分 布 (Spectral Energy Distribution，SED) 呈 现 双 峰 结 构 ， 根 据 同 步 峰 


频 (logv; ) 大 小 ， 又 可 以 将 耀 变 体 分 为 低 峰 频 (LSP)、 中 峰 频 0SP)、 高 峰 频 (HSP) 耀 变 体 5”。 


于 很 多 泡 变 体 缺 乏 光 学 光谱 信息 ， 不 能 有 效 确 定 它们 是 BL Lacs 还 是 FSRQs。 这 种 类 别 不 
确定 的 耀 变 体 在 不 同 的 文献 中 有 不 同 的 名 称 ， 例 如 ， 在 Roma-BZCAT 5HR WAKA 
BZUs (Blazars of Uncertain type); 而 在 Fermi/LAT 源 表 (3FGL 4FGL)®!! 中 被 称 为 


mm 


BCUs(Blazar Candidate of Uncertain types) 。 

SBZCAT), 3FGL Al4FGLO RW LT BFE, URENA, F 
步 峰 频 、 多 波段 流量 /流量 密度 、 多 波段 有 效 谱 指 数 等 观测 数据 。 这 些 源 表 为 研究 次 变 体 的 
性 质 提供 了 大 样本 。 同 时 ， 这 些 源 表 中 也 包含 了 至 少数 百 个 BCUs/BZUs。 对 BCUs 的 分 类 已 
经 引起 不 少 作 者 的 兴趣 ， 随 着 机 器 学 习 (Machine Learning，MD) 方 法 在 天 文 领域 的 广泛 应 用 
9019， 很 多 BCUs 的 分 类 工作 也 使 用 了 这 些 方法 中 中。 例如，Fermi/LAT 3 期 AGN 源 表 (3LAC) 
Pol 中 的 高 置信 度 样本 GLAC Clean Sample) 共 有 402 个 BCUs，Kang 等 上 5 对 其 中 的 无 缺失 数据 
的 400 个 BCUs 进 行 了 分 类 。 他 们 用 了 4 种 ML 分 类 方法 ， 综 合 这 些 分 类 器 的 结果 ， 获 得 了 246 
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个 BL Lacs 和 候选 体 74 个 FSRQs 候 选 体 ; Fermi /LAT 4 期 源 表 (4FGL) 中 共有 1312 个 BCUs, Kang 


Apc [16] 
= 于 


候选 


3 种 ML 分 类 方法 对 它们 进行 分 类 ， 同 时 考虑 3 种 分 类 方法 的 结果 ， 得 到 724 个 BL Lacs 
本 和 332 个 FSRQs 候 选 体 ， 仍 有 256 个 BCUs 没 有 给 出 明确 的 光学 分 类 。 为 了 对 5BZCAT 


中 的 BZUs 的 光学 分 类 进行 评估 , 本 文 使 用 了 支持 向 量 机 (SVM)、 随 机 森林 (RF)、 集 成 学 习 (EM) 
和 多 层 感知 机 (MLP) 这 4 种 ML 分 类 方法 ， 将 BZUs 分 类 为 BL Lacs 候 选 体 和 FSRQs 候 选 体 。 本 


文 结 
结 。 


构 如 下 : 第 1 节 介 绍 样 本 ; 第 2 节 介 绍 分 类 方法 ; 第 3 节 给 出 分 类 结果 与 讨论 ; 第 4 节 是 总 


1 样本 


SBZCAT 中 共有 3561 个 耀 变 体 ， 其 中 有 1425 个 BL Lacs、1909 个 FSRQs 和 227 个 BZUs。 从 


5BZCAT 给 出 的 参数 中 ， 


AS 
a> 


去 坐标 、 源 名 等 无 效 参数 ， 选 取 8 个 可 用 参数 ， 分 别 是 : AB), 


1.4GHz 处 的 射电 流量 密度 ( fg)» 射电 -光学 有 效 谱 指 数 (aso ), X-ray_ 光 学 有 效 谱 指 数 (ao 。)， 


射电 


X-ray 有 效 谱 指数 (anx )， 光 学 R 波 段 视 星 等 (ma )，0.1-2.4keV 的 X-ray 积分 流量 (下 ) 


1-100GeV 的 y-ray 光子 积分 流量 ( F™ ) 。 还 从 NEDINASA/IPAC Extragalactic Database’) 中 


获得 R 波 段 的 消光 系数 (4 )， 对 ms 做 了 消光 改正 ， 得 到 R 波 段 真实 视 星 等 (ma )。 最 终 ， 本 


文中 
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2 分 类 方法 


ML 古人 工 智能 领域 中 一 种 新 兴 的 方法 ， 其 包含 多 种 分 类 模型 (分 类 器 ) 和 回归 模型 ， 这 


些 模 


型 能 从 已 知 数据 中 学 到 某 种 规律 ， 并 应 用 到 新 数据 中 。ML 方 法 在 天 文 领域 的 分 类 和 


可 


` 


AR 


究 中 有 着 良好 表现 002。Scikit-learn(sklearmP0 是 python 提 供 的 ML 模块 ， 其 中 包含 了 许 


多 ML 算法 ， 例 如 数据 预 处 理 方法 和 多 种 ML 分 类 器 。 分 类 器 是 通过 学 习 已 知 类 别 的 数据 ， 获 
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练 集 


优化 


分 类 标准 , 然后 用 于 未 知 类 别 的 数据 ,通常 已 知 类 别 的 数据 将 按 一 定 比例 随机 划分 为 训练 
着 和 测试 集 ， 未 知 类 别 的 数据 则 作为 预测 集 。 训 练 身 


人 


用 来 训练 分 类 器 ,在 分 类 过 程 中 学 习 训 
的 参数 理 含 的 信息 ， 确 定 不 同类 别 的 区 分 标准 ; 测试 集 则 用 来 测试 分 类 器 的 性 能 ; 利用 
分 类 模型 〈 标 准 ) ， 评 估 预 测 外 
样本 中 ， 未 知 类 别 的 227 个 BZUs 作 为 预测 集 。 已 知 类 别 的 数据 3334 个 耀 变 体 〈1425 个 
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BL Lacs 和 1909 个 FSRQs ) 利用 klearn.train_test_split 函 数 将 其 按 7: 3 的 比例 随机 划分 为 训练 集 
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和 测试 集 。 每 次 划分 训练 集 和 测试 集 时 ， 为 确保 训练 集 和 测试 集中 的 BL Lacs 和 FSRQs 的 
数量 比例 与 样本 相同 , 设置 随机 种 子 为 固定 值 (如 ，random_state=1) 。 文 中 ,训练 集 有 2333 
个 次 变 体 (997 个 BL Lacs 和 1336 个 FSRQs) ; 测试 集 有 1001 个 耀 变 体 (428-SBL Lacs 和 573 
个 FSRQs) ; 为 了 确保 结果 的 稳定 性 ， 对 sklearn.train_test_split 函 数 中 random_state( 随 机 数 种 
子 ) 取 5 个 不 同 值 : 0、1、2、3、4， 用 这 5 个 随机 数 随 机 划分 训练 集 和 测试 集 ， 得 到 5 个 不 同 
的 训练 集 和 对 应 的 测试 集 ， 训练 集 1、 测 试 集 1，.… 训练 集 5、 测 试 集 5。 本 文中 ， 在 5 个 训练 
集 上 分 别 训练 分 类 器 ， 得 到 5 个 不 同 的 候选 分 类 器 ， 利 用 5 个 测试 集 上 测试 5 个 候选 分 类 器 的 
性 能 ， 然 后 选择 性 能 最 优 的 1 个 ， 用 于 预测 227 个 BZUs( 预 测 集 ) 的 分 类 。 


4 种 分 类 器 : 支持 向 量 机 (Support Vector Machine, SVM), 随机 森林 (Random Forest, RF), 
多 层 感知 机 (Multi-Layer Perceptron，MLP)、 和 集成 学 习 ( Ensemble Learning, EM) 的 介绍 如 
下 : 

(1) 对 于 线性 可 分 的 两 类 样本 ， 可 以 在 参数 空间 中 找到 无 穷 多 个 超 平面 ， 将 两 类 样本 分 
阳 在 超 平面 两 侧 , 其 中 距离 超 平面 最 近 的 样本 点 被 称 为 支持 疝 量 (Support Vector, SV). SVM 
的 原理 是 寻找 唯一 的 最 优 超 平面 ， 使 得 SV 到 该 最 优 超 平面 的 距离 最 大 化 。 如 果 两 类 样本 是 
非 线 性 可 分 的 ，SVM 可 以 将 样本 映射 到 高 维 (甚至 无 穷 维 ) 空 间 中 ， 然 后 寻找 高 维 空间 中 的 最 
优 超 平面 。 

(2) 决 策 树 (Decision tree，DT) 的 结构 是 二 又 树 , 分 类 时 , 信息 进入 节点 时 进行 二 元 判断 ， 
一 个 节点 无 法 判断 出 类 别 ， 则 分 裂 为 二 个 ， 直 至 判断 出 类 别 为 止 。 由 于 DT 容易 陷入 节点 
过 度 分 裂 的 情况 ， 导 致 分 类 器 泛 化 性 差 。 而 随机 森林 (RP) 由 大 量 DT 构成 ， 其 中 DT 之 间 相 互 
独立 ，RF 随 机 划分 训练 集 和 参数 给 每 个 DT， 分 类 结果 由 所 有 DT 投票 决定 ，RF 的 恬 秦 烧 庐 
主 往 优 于 单个 DT:; 

(3)MLP 是 人 工 神 经 网 络 (Artificial Neural Network, ANN) 的 一 种 。ANN 是 一 系列 模 
仿生 物 神 经 网 络 (如 人 类 大 脑 ) 结 构 的 算法 。 这 些 结构 由 多 个 人 工 神经 层 组 成 ， 包 括 一 个 输入 
层 、 一 个 或 多 个 隐藏 层 和 一 个 输出 层 。 每 一 个 人 工 神 经 层 可 以 识别 数据 中 的 特定 元 素 ， 然后 
将 结果 传播 到 下 一 人 工 神 经 层 。 通 过 综合 每 一 个 神经 层 的 结果 ，ANN 可 以 学 习 识 别 数据 中 
的 复杂 特性 。 

(4)EM 通 过 某 种 集成 规则 , 将 一 组 基 评 估 器 的 结果 集成 , 其 性 能 往往 优 于 单个 基 评估 器 。 
本 文 将 SVM，REF，MLP 这 3 种 分 类 器 做 为 EM 的 基 评估 器 ， 集 成 规则 为 软 投票 ， 即 给 每 个 基 
评估 器 : SVM，RF，MLP 输 出 的 类 别 概率 一 个 权重 ， 权 重 在 [0，J] 区 间 。 然 后 对 基 评 估 器 
的 类 别 概率 求 加 权 和 ， 作 为 EM 输出 的 类 别 概率 。 本 文 尝试 了 多 种 权重 组 合 ， 并 选取 其 中 最 
优 的 一 个 。 
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2.2 性 能 指标 
ML 常用 的 性 能 指标 有 准确 率 (accruacy)， 精 准 率 (precision)， 召 回 率 (reca 了 等 。 本 文中 ， 
只 考虑 准确 率 : 


TP+TIN 
FP + FN + TP +TN 
其 中 ，TP (True Positive) 是 被 正确 分 类 的 正 类 别 样本 点 数 ;， TN (True Negative) 是 被 正确 分 类 
的 负 类 别 样本 点 数 ，FP (False Positive) 是 被 误 分 类 的 正 类 别 样本 点 数 ，FN(False Negative) 是 
被 误 分 类 的 负 类 别 样本 点 数 。 准 确 率 (accuracy) 代 表 被 正确 分 类 的 样本 点 数 占 样本 容量 的 比 


accuracy = 


| 四 
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2.3 数据 集 转换 和 特征 选择 
ML 中 ， 描 述 样本 点 属性 的 参数 被 称 为 特征 ， 本 文中 ， 分 类 所 用 的 特征 即 是 SBZCAT 中 
`> 的 8 个 参数 ( 见 第 1 节 )。 真 实 样本 的 特征 往往 还 包含 缺失 值 、 噪 声 、 无 关 信 息 、 宛 余 信 息 等 ， 
它们 会 影响 ML 分 类 器 的 性 能 ; 因此 ， 本 文中 ,在 使 用 ML 分 类 器 之 前 ， 需 要 先 对 原始 数据 做 
数据 集 转 换 和 特征 选择 的 处 理 , 这 样 做 的 目的 是 保证 最 大 限度 从 原始 数据 中 提取 有 效 特征 供 
ML 分 类 器 学 习 。 数 据 集 转 换 通常 包括 预 处 理 数据 和 无 监督 降 维 ， 特 征 选 择 和 无 监督 降 维 都 
是 降 维 方 法 ， 可 以 减少 特征 。 分 别 对 数据 集 转换 和 无 监督 降 维 做 如 下 概述 : 

(1) 预 处 理 数据 一 般 包括 缺失 值 补 全 和 标准 化 。 本 文中 ， 若 某 个 特征 有 缺失 值 本 文中 ， 
] 同 类 特征 的 平均 值 填充 ; 而 标准 化 是 将 所 有 特征 映射 到 到 相同 区 间 ， 以 免 基 些 特征 的 量 级 
比 其 他 特征 小 ， 导 致 分 类 器 只 学 习 量 级 大 的 特征 。 本 文中 ， 用 sklearn 中 的 
preprocessing.StandardScaler 将 所 有 特征 化 为 标准 正太 分 布 ; 

(2) 降 维 一 般 包 括 特征 选择 (Feature Selection，FS) 和 无 监督 降 维 (unsupervised 
dimensionality reduction，UDR)， 其 可 以 降低 特征 维度 ， 减 少 计算 成 本 ， 并 能 提升 分 类 器 性 
© 能 。 本 文中 ， 采 用 的 FS 和 UDR 分 别 为 序列 向 后 选择 (Sequential Backward Selection，SBS) 和 

主 成 分 分 析 (Principal Component Analysis，PCA)。 其 中 ，SBS 选 择 原 特征 集 的 子 集 ， 而 PCA 
将 原 特征 映射 到 新 空间 中 ， 再 选取 新 特征 集 的 子 集 。 对 SBS 和 PCA 简 单 介绍 如 下 : SBS 不 断 

当前 全 部 特征 中 舍 去 一 个 特征 ， 直 到 所 剩 特征 数量 满足 要 求 ， 每 次 被 舍弃 的 特征 满足 : 与 
舍弃 其 他 特征 相 比 ， 含 弃 该 特征 后 分 类 器 的 性 能 损失 达到 最 小 ; 而 PCA 不 依赖 分 类 器 ， 它 将 

本 点 从 原 n 维 特征 空间 映射 到 新 的 n 维 正 交 空间 ， 得 到 n 个 两 两 线性 无 关 的 新 特征 ， 新 空间 
中 ， 每 个 坐标 轴 被 称 为 主 成 分 (Principal Component，PC)， 在 每 个 PC 方向 上 ， 样 本 点 的 分 离 
都 达到 最 大 。 第 1 个 PC 代表 样本 方差 最 大 的 方向 ， 称 为 第 1 主 成 分 ， 其 余 坐标 轴 称 为 第 2， 第 
3，.…， 第 n 主 成 分 ， 每 个 主 成 分 均 为 n 个 原 特 征 的 线性 组 合 。 它 们 对 样本 方差 的 贡献 率 依 次 
递减 ， 可 根据 需要 取 前 k 个 主 成 分 ，k <n. 

本 文中 ， 对 SVM 和 RF 都 做 了 SBS 和 PCA， 并 将 分 类 准确 率 与 不 做 降 维 的 分 类 准确 率 进 
行 比较 。 对 于 SBS， 本 文中 ， 在 8 维 原 特征 空间 的 训练 集 1 上 用 SBS 筛 选 特 征 。SBS 每 次 减少 1 
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个 特征 直至 只 剩 1 个 特征 ， 在 此 过 程 中 观察 分 类 器 在 不 同 维度 的 特征 空间 中 的 性 能 ， 选 出 最 
优 的 特征 空间 ， 而 主 成 分 共有 8 个 ， 本 文中 ， 侈 弃 第 8 主 成 分 ， 其 方差 贡献 率 只 有 0.0305%， 
其 余 主 成 分 的 方差 贡献 率 均 大 于 5%。SBS 和 PCA 的 结果 分 别 如 图 1， 图 2 所 示 。 图 1 为 SVM 和 
RF 的 SBS 结 果 ， 横 坐标 为 特征 数量 ， 纵 坐标 为 对 应 的 分 类 器 准确 率 。 图 2 为 PCA 结 果 ， 横 从 
标 为 各 主 成 分 ， 纵 坐标 为 对 应 的 方差 贡献 率 ， 为 了 便于 观察 ， 图 中 第 8 主 成 分 的 方差 贡献 率 
被 放大 了 50 倍 。 而 MLP 的 一 个 优势 是 无 需 做 太 多 特征 工程 ， 因 为 ANN 的 隐藏 层 能 自动 提取 
有 效 特征 ， 并 能 自 适应 特征 间 的 非 线性 关系 ， 因 此 本 文中 ， 没 有 对 MLP 做 数据 降 维 。 对 于 
EM， 本 文中 ， 在 每 个 训练 集 上 将 性 能 最 优 的 SVM，RF，MLP 分 类 器 以 最 优 的 权重 集成 。 
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图 1 SBS 结 果 图 。 左 图 为 SVM 的 SBS 结 果 ， 右 图 为 RF 的 SBS 结 果 


Fig.1 The result graph of SBS. Left:SBS for SVM; Right: SBS for RF 
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图 2 ”PCA 结果 图 。 第 8 主 成 分 被 放大 50 倍 


Fig.2 The result graph of PCA. The 8th principal component is magnified by 50 times 


24 超 参数 
在 sklearn 提 供 的 ML 和 分 类 器 中 , 有 部 分 函数 参数 属于 自由 变量 , 其 被 称 为 超 参数 (Hyper 
Parameters，HPs)。HPs 不 能 通过 训练 分 类 器 得 到 ， 而 要 在 训练 分 类 器 前 人 为 赋值 。 对 于 HPs 
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的 取 值 ， 本 文中 ， 使 用 网 格 搜索 方法 (Grid Search，GS)， 找 出 最 优 值 。 具 体 来 说 ， 本 文中 ， 
指定 一 组 候选 值 ，GS 以 暴力 穷 举 的 方式 ， 选 出 能 最 大 化 分 类 器 准确 率 的 值 。 本 文中 ， 对 四 
种 分 类 器 中 较 重 要 的 HPs 使 用 了 GS， 例 如 SVM 中 的 C 和 MLP 中 的 alpha， 这 两 个 HPs 可 以 提高 
模型 的 泛 化 性 能 。 


3 结果 与 讨论 


4 种 分 类 器 在 测试 集 上 的 准确 率 和 BZUs 的 分 类 结果 概述 如 下 : 

(对 于 SVM， 分 类 结果 显示 ， 训 练 集 3 上 ，8 维 原 特 征 空间 中 的 分 类 器 准确 率 最 高 ， 为 
84.62% 〈 见 表 1， 图 1) 。 在 所 有 训练 集 上 ，PCA 选 7 维 主 成 分 空间 中 的 分 类 器 准确 率 均 不 如 
其 他 特征 空间 ; 


(2) 对 于 RF，SBS 在 训练 集 1 上 选 出 了 5 个 最 优 特征 ， z，ono ，aox Mp FP, 4% 


结果 显示 ， 训 练 集 3 上 ，SBS 选 $ 维 子 特征 空间 中 的 分 类 器 准确 率 最 高 ， 为 94.41% 。 在 所 有 训 


练 集 上 ，SBS 选 5 维 子 特征 空间 中 的 分 类 器 准确 率 均 优 于 在 8 维 原 特征 空间 中 的 ， 而 PCA 选 7 
维 主 成 分 空间 中 的 分 类 器 准确 率 均 不 如 其 他 特征 空间 

LO G) 对 于 MLP， 分 类 结果 显示 ， 在 训练 集 5 上，8 维 原 特征 空间 中 的 分 类 器 准确 率 最 高 ， 
= 94.21% 

S (4) 对 于 EM， 在 每 个 训练 集 上 ， 本 文中 ， 选 取 准 确 率 最 高 的 SVM、RF、MILP 分 类 器 集 
© | 


《 
`~ 
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成 。 分 类 结果 显示 ， 在 训练 集 3 上 ， 分 类 器 准确 率 最 高 ， 为 94.81% 〈 见 表 1， 图 1) 。 此 时 成 
员 分 类 器 SVM，REF，MLP 的 权重 分 别 为 0, 0.62, 0.38. 
分 类 器 在 5 个 测试 集 上 的 准确 率 表 明 , 对 于 同一 种 分 类 器 和 同一 个 特征 空间 ,5 个 测试 集 


[= 上 分 类 器 的 准确 率 都 相近 ， 这 说 明 本 文中 ， 的 分 类 结果 是 稳定 的 ， 并 且 对 于 RF， 当 SBS 将 8 
个 特征 减少 到 5 个 时 ， 反 而 最 大 程度 提高 了 分 类 器 准确 率 。 相 反 地 ，SVM 和 RF 使 用 了 PCA 后 


性 能 均 明 显 下 降 , 这 可 能 是 由 于 原 特征 间 有 非 线 性 关系 , 不 能 很 好 地 被 分 离 成 两 两 线 线性 无 
关 的 新 特征 。 分 类 结果 显示 ，4 种 分 类 器 中 ，SVM 的 准确 率 明显 低 于 其 余 3 种 。 原 因 可 能 是 
在 8 参数 空间 中 ，BL Lacs 和 FSRQs 不 能 很 好 地 被 线性 边界 分 开 ， 而 RF、MLP 和 EM 分 类 器 能 
很 好 地 捕捉 到 非 线 性 分 类 边界 ， 因 此 其 性 能 都 较 良 好 且 优 于 SVM。4 种 分 类 器 在 5 个 测试 集 
上 的 准确 率 和 GS 确 定 的 最 优 HPs 分 别 展示 在 表 1 和 表 2 中 , 表 1 中 各 列 说 明 如 下 ， 第 1 列 为 分 类 
器 名 称 ; 第 2 列 为 测试 集 名 称 ; 第 3-5 列 分 别 为 8 维 原 特征 空间 、SBS 选 特征 空间 、7 维 主 成 
分 空间 中 的 分 类 器 准确 率 ; 第 6 列 为 EM 分 类 器 准确 率 。 表 2 中 各 列 说 明 如 下 ， 第 1 列 为 分 类 器 
ZB; 第 2 列 为 测试 集 名 称 ， 第 3-7 列 分 别 为 8 维 原 特征 空间 、SBS 选 特征 空间 、7 维 主 成 分 
空间 中 分 类 器 的 最 优 HPs。 本 文中 ， 同 样 在 图 1 中 展示 了 4 种 分 类 器 的 准确 率 ， 可 以 更 直观 地 
看 到 每 种 分 类 器 在 每 个 训练 集 上 的 准确 率 。 图 1 中 4 张 子 图 的 横 轴 均 为 测试 集 名 称 ， 纵 轴 为 分 
类 器 的 准确 率 ; 图 1 上 半 部 分 两 张 子 图 ， 从 左 到 右 分 别 为 SVM 和 REF 分 类 器 ， 其 中 蓝 色 、 橘 


色 、 绿 色 柱状 图 分 别 代表 8 维 原 特征 空间 、SBS 选 特征 空间 、7 维 主 成 分 空间 中 分 类 器 的 准确 
率 ; 图 1 下 半 部 分 两 张 子 图 ， 从 左 到 右 分 别 为 MLP 分 类 器 在 8 维 原 特征 空间 和 EM 分 类 器 的 
准确 率 。 

本 文中 ， 选 择 在 测试 集 上 准确 率 最 高 的 4 个 分 类 器 ， 用 它们 对 227 个 BZUs 进 行 分 类 ， 得 
到 每 个 BZU 的 Par rec 。 若 将 判别 概率 的 阔 值 设 为 ， py = 0.5 ， 即 某 个 源 的 Poua > 0.5 则 


判 为 BL Lacs， 否 则 判 为 FSRQs。 则 SVM、RF、MLP、EM 分 别 给 出 116、106、112、112 个 
BL Lacs 候 选 体 和 111、121、115、115 个 FSRQs 候 选 体 。 本 文中 ， 将 4 种 分 类 器 的 分 类 结果 与 
3FGL、4FGL 和 Kang 等 0519 中 的 BL Lacs 和 FSRQs 进 行 了 比较 ， 发 现 本 文中 ， 的 分 类 结果 与 
其 他 文献 并 不 完全 一 致 ， 例 如 ， 对 于 EM 的 分 类 结果 ， 分 别 有 8、10、9、14 个 BZUs 的 分 类 与 
3FGL、4FGL 和 Kang 等 29 的 分 类 不 同 。 本 文中 ， 尝 试 进 一 步 改 进 分 类 方法 ， 以 求 减 少 与 其 
他 文献 分 类 不 一 致 的 BZUs( 不 匹配 源 或 mismatched BZUs) 数 量 。 本 文 尝试 了 两 种 改进 方法 : 


(D 对 po 分 别 取 0.5、0.6、0.7、0.8、0.9、0.95 这 6 个 不 同 值 ， 并 比较 分 别 取 6 个 值 时 4 个 分 类 


器 的 mismatched BZUs 数 量 , BIX po GS. 比较 结果 显示 , 当 po =0.7 和 Pu = 0.8 , 与 3FGL 
0 0 0 


对 比分 类 结果 时 ，SVM 和 RF 的 mismatched BZUs 数 量 明 显 下 降 。 其 余 情 况 下 ，mismatched 


BZUs 数 量 随 py 取 值 不 同 没 有 显著 变化 ，(C) 对 于 某 个 BZU 的 预测 类 别 ， 本 文中 ， 同 时 考虑 4 


> 


分 类 器 的 分 类 结果 ， 即 只 有 当 4 个 分 类 器 的 预测 类 别 都 一 致 时 ， 才 认为 该 BZU 属 于 该 预测 
类 别 ， 否 则 认为 该 BZU 的 类 别 是 不 确定 的 nknowns， unks)。 即 对 于 某 个 源 ， 只 有 当 4 个 分 
类 器 同时 预测 其 类 别 为 


表 1 ML 分 类 器 性 能 


Table 1 Accuracy for ML classifiers 


Model Test data Accuracy(8 features) Accuracy(SBS) Accuracy(PCA) Accuracy(EM) 


(1) (2) (3) (5) (7) (9) 
Test datal 0.8192 0.8192 0.7922 - 
Test data2 0.8272 0.8272 0.8002 - 
SVM Test data3 0.8462 0.8462 0.8052 - 
Test data4 0.8192 0.8192 0.7902 - 
Test data5 0.8292 0.8292 0.7872 - 
Test datal 0.9211 0.9241 0.8761 - 
Test data2 0.9341 0.9421 0.8891 - 
RF Test data3 0.9381 0.9421 0.8971 - 
Test data4 0.9341 0.9341 0.8781 - 
Test data5 0.9331 0.9441 0.8821 - 
Test datal 0.9271 - - - 
MLP Test data2 0.9291 - - - 


Test data3 0.9191 7 = - 


Test data4 0.9271 - = 2 
Test data5 0.9421 - = - 
Test datal - - s 0.9331 
Test data2 - = 0.9461 

EM _ Test data3 - - - 0.9431 
Test data4 - - - 0.9391 
Test data5 - - - 0.9481 

BL Lac 或 FSRQ 时 ， 本 文才 认为 该 源 是 BL Lac 候 选 体 或 FSRQ 候 选 体 ， 和 否则 认为 该 源 的 类 别 


是 unks。 依 此 标准 ， 再 ; 


时 的 比较 结 


次 比较 当 p 取 方 法 (D 中 的 6 个 不 同 值 


HY, mismatched BZUs 数 量 。 此 


表明 ，6 个 不 同 py 的 mismatched BZUs 数 量 相当 ， 且 均 显 著 小 于 方法 (D) 中 的 


mismatched BZUs 数 量 。 当 py = 0.8 和 Pu = 0.9 时 ，unks 的 数量 最 少 。 本 文中 ， 和 希望 有 尽 可 


能 多 的 BZUs 被 分 类 , 综合 以 上 2 种 分 类 改进 方法 ， 本 文 使 用 的 分 类 改进 方法 是 : po 取 0.8 时 ， 
由 4 个 分 类 器 共同 决定 每 个 BZUs 的 类 别 。 
4 个 分 类 器 的 mismatched BZUs 数 量 如 表 3 和 表 4 所 示 ，Pu 取 0.8 时 , 227 个 BZUs 由 4 个 分 类 
器 共同 决定 的 类 别 ， 以 及 和 其 他 文献 共同 源 的 类 别 均 展 示 在 表 5《〈 附 件 ) 中 。 第 1 列 代 表 进 行 
分 类 比较 的 文献 ， 第 2 列 为 不 同文 献 中 BL Lacs 和 FSRQs 的 总 数 ， 第 3 列 为 分 类 器 名 称 ， 第 4-9 
列 为 p 取 不 同 值 时 ，4 种 分 类 器 的 mismatched BZUs 数 量 ， 表 4 中 ， 第 1 列 代表 进行 分 类 比较 
表 2 各 分 类 器 的 最 优 超 参 数 
Table 2 Optimal hyper parameters for ML classifiers 
Model Test data HP GS(8 features) GS(SBS) GS(PCA) GS(EM) 
(1) (2) (3) (4) (5) (6) (7) 
Test datal 100 100 100 = 
Test data2 1000 1000 1000 S 
SVM Test data3 C 1000 1000 10 - 
Test data4 1000 1000 100 - 
Test data5 1000 1000 10 z 
entropy, None, entropy, log2, gini, log2, 
Test data1 - 
400, False 50, False 400, False 
criterion, entropy, None, entropy, log2, entropy, log2, 
Test data2 - 
max_features, 50, False 100, False 100, False 
RF 
n_estimators, entropy, log2, entropy, log2, gini, log2, 
Test data3 - 
oob_score 1000, False 400, False 1000, False 
entropy, None, entropy, log2, entropy, log2, 
Test data4 - 


400, False 


400, False 


1000, False 
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entropy, None, gini, log2， gini, None, 
Test data5 - 
1000, False 100, False 1000, False 
tanh, 1, 
Test datal - - - 
(30, 20, 10), lbfgs 
tanh, 0.001, 
Test data2 - - - 
activation, (20, 10, 5), lbfgs 
alpha, tanh, 1, 
MLP Test data3 - - - 
hidden_layer_sizes, (50, 30, 10), lbfgs 
solver tanh, le-05, 
Test data4 - - - 
(70, 50, 30),adam 
tanh, 1, 
Test data5 - - - 
(50, 30, 10), lbfgs 
Test datal - - - [0.13 0.44 0.43] 
Test data2 - - - [0.08 0.87 0.05] 
EM Test data3 weights - - - [0. 0.92 0.08] 


Test data4 


Test data5 


SVM 


EE 8 features 
ma SBS: 8 features 
Mmm PCA: 7 PCs 
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E 8 features 
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Mmm PCA: 7 PCs 
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Test data1 Test data2 Test data3 Test data4 Test data5 


图 3 4 种 分 类 器 的 准确 率 


Test datal Test data2 Test data3 Test data4 Test data5 


图 左上 、 右 上、 左下 、 右 下 依次 为 : SYVM、RF、MLP、EM 的 准确 率 


Fig.3 The accuracy graph of 4 classifiers, the upper left, upper right. lower left. lower right: accuracy for SVM, 


RF, MLP, 


EM 


的 文献 和 unks， 第 2 列 为 不 同文 献 中 BL Lacs 和 FSRQs 的 总 数 ， 第 3-8 列 为 4 个 分 类 器 共同 决定 


BZUs 类 别 时 ， 不 同 的 po 取 值 对 应 的 mismatched BZUs 和 unks 数量 ; 表 5 中 ， 第 1-3 列 为 


BZUS 在 SBZCAT、3FGL 和 4FGL 中 的 名 称 ; 第 4-7 列 为 4 种 分 类 器 的 预测 的 ps pace i 第 


8-11 列 为 5BZCAT、3FGL、4FGL 和 Kang 等 (1 对 BCUs 的 分 类 ; 第 12 列 为 po = 0.8 时 ， 


4 个 分 类 器 共同 决定 的 BZUs 类 别 。 


最 终 , 本 文 得 到 33 个 BL Lacs 候选 体 和 119 个 FSRQs 候选 体 ,两 者 比例 与 Kang 等 (19 
不 一 致 ， 主 要 是 因为 :DJBZUs 是 从 不 同文 献 收集 来 的 ， 例 如， 有 友 来 自 NVSS (The Nrao VLA 


Sky Survey) °”, m, 来 自 USNO-B (The USNO-B Catalog) (和 SDSS DR10(The Sloan 


Digital Sky Survey quasar catalog: tenth data release)*"). iff BCUs 是 来 源 于 Fermi 观测 ， 
所 以 BZUs 和 BCUs 中 BL Lacs 和 FSRQs 的 分 布 不 同 ; 2) 本 文 与 Kang 等 "使 用 的 判别 概 
ZAIN TA]. Kang 等 0.5 HUA BEBE, TAS SCHL 0.8， 这 也 使 得 本 文 对 BL Lacs 
候选 体 的 判定 较为 严 苛 ， 导 致 本 文 所 得 BL Lacs 候选 体 较 少 ; 3) 本 文 与 Kang 等 n ”19 使 用 

的 用 于 分 类 的 参数 不 同 ,本 文 使 用 的 参数 为 SBZCAT 表 提 供 ， 而 Kang 等 ”19 使 用 的 参数 则 


来 自费 米 表 。 相 较 于 Kang 等 上 ,本文 对 每 个 分 类 器 中 重要 的 HPs( 包 括 po ) 进 行 了 较 细 致 的 


筛选 (GS)。 本 文中 的 分 类 准确 率 最 高 达到 94.81%, WR OL Kang 等 0549 的 91.6% 和 92.9%。 
此 外 ,Kang 等 上 5 的 工作 表明 ,训练 集 和 测试 集 的 划分 比例 不 同 ,得 到 的 分 类 结果 也 会 不 同 ,而 本 
文 只 考虑 7: 3 这 个 比例 ， 因 此 本 文 的 结果 可 能 有 一 定 的 偏向 性 。 本 文 注意 到 227 个 BZUs 
中 ,有 部 分 在 3FGL 和 4FGL 中 被 分 类 为 非 耀 变 体 源 , 而 本 文 分 类 时 只 考虑 BL Lacs 和 FSRQs 
这 两 个 耀 变 体 的 子 类 别 ， 对 BZUs 的 分 类 是 否 该 考虑 更 多 的 候选 类 别 ， 而 不 仅 限于 BL Lacs 
和 FSRQs， 这 个 问题 超出 了 本 文 的 研究 范围 。 应 当 指 出 ， 判 定 一 个 次 变 体 是 BL Lacs 还 是 
FSRQs， 最 准确 的 方法 仍然 是 光学 光谱 测量 ，ML 方法 可 作为 高 效 的 百代 方法 ， 为 后 续 可 能 
的 光学 光谱 测量 提供 可 信和 度 较 高 的 候选 体 。 


表 3 4 种 分 类 器 与 其 他 文献 的 不 匹配 源 


Table 3 Mismatched sources of 4 classifiers 


mismatched total model Py =0.5 po =0.6 po =0.7 po =0.8 py =0.9 py =0.95 


(1) (2) (3) (4) (5) (6) (7) (8) (9) 
SVM 14 12 9 9 9 9 
RF 17 16 13 13 16 17 
3FGL 38 
MLP 11 12 13 14 15 17 
EM 5 5 7 8 8 7 


4FGL 48 SVM 7 6 6 6 6 5 


J0040+4050 J0040.3+4049 J0040.3+4050 


RF 12 11 11 11 11 10 
MLP 10 11 11 11 11 12 
EM 10 11 11 10 10 9 
SVM 10 10 11 11 10 10 
RF 13 12 14 14 13 12 
Kang!” 26 
MLP 10 11 12 12 11 12 
EM 8 8 9 9 9 9 
SVM 8 10 9 8 7 7 
RF 12 13 12 13 12 12 
Kang09 20 
MLP 10 10 11 11 10 11 
EM 12 11 10 10 9 8 
表 4 联合 4 种 分 类 器 后 与 其 他 文献 的 不 匹配 源 
Table 4 Mismatched sources of combining 4 classifiers 
mismatched total po=0.5 py =0.6 py =0.7 py =0.8 py =0.9 py =0.95 
(1) (2) (3) (4) (5) (6) (7) (8) 
3FGL 38 5 5 6 5 4 4 
4FGL 48 7 6 8 7 6 6 
Kang” 26 5 5 8 8 8 8 
Kang''®! 20 2 2 4 5 5 4 
unks 88 91 76 T3 82 75 
表 5 227 个 BZUs 的 分 类 结果 与 其 他 文献 的 分 类 
Table 5 Classification results of 227 bzus and other literatures 
SBZCAT 3FGL 4FGL 3LAC 4FGL 
SVM RF MLP EM Kang!'’! Kang!'®! Class 
name name name Class Class 
(1) (2) (3) 4 © © 0 (8) © (0) (11) (12) 
5BZU 3FGL 4FGL 
0.2476 0.417 0.0038 0.1812 agn bcu fsrq 
J1312+4828 J1312.74+4828 J1312.6+4828 
SBZU 3FGL 4FGL 
0.5685 0.997 0.9823 0.9809 bcu bll fsrq unks 


5BZU 3FGL 4FGL 
0.9096 0.909 0.9941 0.9668 bcu bcu bll fsrq bll 


J0049-4457 J0050.0-4458 J0049.6-4500 


5BZU 
0.6125 0.001 0.094 0.0481 fsrq 
J2352+3947 
5BZU 
0.4935 0.065 0.0335 0.0437 fsrq 
J2354-0405 
5BZU 
0.561 0.004 0.032 0.0866 fsrq 
J2354-4106 


表 注 : 完整 表格 请 参考 附件 


4 总 结 


本 文 以 5BZCAT 为 主要 样本 ， 结 合 NED 数据 ， 选 取 红 移 ， 多 波段 有 效 谱 指数 ， 多 波段 
流量 /流量 密度 等 8 个 参数 ， 用 SVM, RF, MLP, EM 这 4 种 ML 分 类 器 对 SBZCAT 中 的 
227 个 BZUs 进行 分 类 ， 用 特征 工程 和 网 格 搜索 分 别 筛选 最 优 的 特征 和 HPs， 提 升 分 类 ;准确 


RX 


Ko FFG I SCI DRAG RET T eR, AAR BL pu 设 为 0.8， 并 同时 考虑 4 


种 分 类 器 的 预测 类 别 , 进一步 减少 了 与 其 他 文献 不 匹配 的 源 。 本文 的 分 类 结果 表明 ,，BL Lacs 
All FSRQs 在 8 参数 空间 中 是 可 区 分 的 ， 最 终 得 到 33 个 BL Lacs 候选 体 和 119 个 FSRQs 候 
选 体 。 
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Classication for BZUs in 5BZCAT 
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(Astronomy Science and Technology Research Laboratory of Department of Education of Guangdong 
Province, Guangzhou 510006, China) 
(Key Laboratory for Astronomical Observation and Technology of Guangzhou, Guangzhou 510006, China) 

Abstract: In order to evaluate the potential optical classification of 227 BZUs in SBZCAT, 
we divided the BZUs into BL lac candidates and FSRQ candidates by four machine learning 
methods: support vector machine (SVM), random forest (RF), ensemble learning (EM) and 
multi-layer perceptron (MLP). And the classification accuracy is improved by feature engineering 
and grid search. By combining the classification results of four classifiers and setting the threshold 
of discrimination probability to 0.8, we get 33 BL lacs candidates and 119 FSRQs candidates. 
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